因為最近要推甄了,差不多該做專題了,所以我來紀錄一下過程。
利用request套件爬取IG的AJAX,我是爬星巴克的粉專,這個好像叫做動態爬蟲。下面這個是星巴克粉專有標注星巴克的AJAX。
url = "https://www.instagram.com/graphql/query/?query_hash=be13233562af2d229b008d2976b998b5&variables=%7B%22id%22%3A%22193366488%22%2C%22first%22%3A12%7D"
然後解析回傳的JSON檔格式,他的格式如下,意思是
在["data"]下有["user"]
在["user"]下有["edge_user_to_photos_of_you"]
在["edge_user_to_photos_of_you"]下有["edges"]
在["edges"]下有第[i]篇貼文
在第[i]篇貼文下有["node"]
在["node"]下有["display_url"]
,看懂後把圖片網址找出來。
["data"]["user"]["edge_user_to_photos_of_you"]["edges"][i]["node"]["display_url"]
最後下載到電腦裡。下載的方式很多種,我是用以下的方式,要注意要用OS套件鎖定要存放的位置,不然照片會找不到喔。
urllib.request.urlretrieve(網址,位置)
重複前三步驟。
以上是大概的思維,至於要怎麼丟到模型訓練我也還在尋找